Un Metodo per il Riconoscimento di Duplicati in Collezioni di Documenti

نویسندگان

  • Federica Mandreoli
  • Riccardo Martoglia
  • Paolo Tiberio
چکیده

Sommario I recenti avanzamenti nella potenza di calcolo e nelle telecomunicazioni hanno creato le giuste condizioni per la diffusione globale di enormi moli di informazioni elettroniche e di nuovi strumenti per l’analisi del loro contenuto, sollevando problemi di information overload e, in particolare, di duplicate detection. I duplicati, cioè documenti molto simili che contengono approssimativamente le stesse informazioni, degradano l’efficacia e l’efficienza delle ricerche e, spesso, costituiscono anche violazioni di copyright. In questo articolo introduciamo DANCER (Document ANalysis and Comparison ExpeRt), un sistema completo di duplicate detection che sfrutta idee innovative nell’ambito dell’information retrieval per l’identificazione dei documenti duplicati, utilizzando algoritmi e misure di similarità inedite in questo campo e sufficientemente fini da ottenere una buona efficacia nella maggior parte delle applicazioni. Inoltre, il sistema propone diverse nuove tecniche di data reduction che permettono di ridurre sia il tempo di esecuzione che lo spazio richiesto per la memorizzazione dei dati, senza compromettere la buona qualità dei risultati.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Hybrid Language Segmentation for Historical Documents

English. Language segmentation, i.e. the division of a multilingual text into monolingual fragments has been addressed in the past, but its application to historical documents has been largely unexplored. We propose a method for language segmentation for multilingual historical documents. For documents that contain a mix of highand low-resource languages, we leverage the high availability of hi...

متن کامل

Adaptive query processing for result completeness in the presence of duplicate values

Secondo J. M. Juran, uno dei fondatori delle management and quality theories, i dati sono detti di alta qualità se possono essere utilizzati in modo appropriato per operations, decision making and planning. Il termine Quality of Data (QoD) quindi, si riferisce ad un aspetto multi-dimensionale che esprime una caratteristica intrinseca dei dati offerti, come opposto all’omologo Quality of Service...

متن کامل

Estensione dei Metodi di Ranking mediante Analisi dell'Interspaziatura fra Occorrenze

L’analisi frequentistica delle occorrenze, tipica dei modelli di ranking di information retrieval, può essere integrata con l’analisi della spaziatura fra le occorrenze di una singola parola, mutuata dallo studio dei livelli di energia dei sistemi statistici di quanti disordinati. Queste due aree di ricerca sono fortemente interrelate, perché entrambe hanno l’obiettivo di assegnare dei pesi di ...

متن کامل

Il Birraio di Preston di Andrea Camilleri

Nella letteratura italiana degli ultimi decenni lo scrittore Andrea Camilleri rappresenta un caso raro di successo editoriale e di pubblico, con centinaia di migliaia di copie vendute, traduzioni in molte lingue, riconoscimenti e convegni in suo onore. Uno dei suoi titoli più noti è il romanzo storico Il Birraio di Preston. Lo scrittore è diventato famoso presso il grande pubblico inizialmente ...

متن کامل

Integrazione Di Tecniche Neurali E Di Analisi Del Contesto Peril Riconoscimento Automatico Del Testo Manoscritto

L'articolo introduce il sistema BEATRIX per il riconoscimento automatico dei testi manoscritti. Il sistema e costituito da due sottosistemi fortemente interagenti, basati rispettivamente su un complesso di reti neuronali e su un modulo di intelligenza arti ciale. I due sottosistemi si suddividono i compiti necessari al riconoscimento del testo, ed in particolare le reti neuronali e ettuano un p...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2003